Définition 10.1.1 : Le lien statistique
Deux variables $X$ et $Y$ sont considérées liées si il y a une quelconque changement dans la distribution conditionnelle de $Y$, sachant $X = x$, lorsque $x$ change. En revanche, un état de « pas de relation » est mathématiquement équivalent à l'indépendance de $X$ et $Y$.
Les variables $X$ et $Y$ sont indépendantes si et seulement si $f(y|x) = f(y)$ pour toutes les valeurs de $x$. Cela implique que la fonction de fréquence relative conjointe peut être factorisée comme suit :
$$f(x, y) = f(x)f(y)$$
Par conséquent, tester une relation est fondamentalement un test d' indépendance.
Mécanismes de changement
Une relation est identifiée par tout déplacement dans la fonction de densité conditionnelle (comme illustré à la figure 10.1.1). Cela inclut :
- Décalage de la moyenne : La valeur attendue $E(Y|X)$ change (le cas le plus courant).
- Décalage de la variance : L'écart-type ou l'incertitude de $Y$ dépend de $X$ (hétéroscédasticité).
- Changement de forme : La distribution globale se transforme (par exemple, d'une distribution symétrique à une distribution asymétrique).
Établir une causalité par la conception
Une relation statistique n'implique pas de causalité. Pour affirmer que $X cause $Y$, nous devons tenir compte des variables de confusion par le biais du plan d'expérience:
- Traitements témoins : Fournit une référence pour la comparaison.
- Effet placebo : Atténuation de l'amélioration perçue grâce à des traitements inactifs.
- Désaveu : En utilisant des expériences en aveugle (les destinataires ignorants) et des expériences à double aveugle (destinataires et chercheurs ignorants) afin d'éliminer tout biais.
- Blocs : Comme vu dans Exemple 10.1.7, nous utilisons des variables de blocage ($W$, comme la fertilité du sol) pour garantir que la relation entre le type de blé ($X$) et le rendement ($Y$) ne soit pas faussée par des conditions préexistantes.